python主题爬虫爬取与主题词相关的新浪新闻网页

资源分类：Python/Python语言基础
发布人：房东的猫
文件大小：4536
文件格式：.rar
浏览次数：27
下载次数： 0
发布时间：9月5日

开通会员每日领积分！

8.5玩家评分(1人评分)

下载后可评

介绍评论  失效链接反馈

•在新闻页面的HTML中进行文本内容的提取，这里是使用了BeautifulSoup和xpath的信息提取方法。在提取出文本之后，进行了文本的切分，获取每个词汇。进行了停用词过滤，最后以词汇出现的次数和词汇在每个段落出现的情况来进行特征选择，最终选择出10个代表该页面内容的词汇。将这些词汇与事先设定的主题词汇基于Jaccard相似系数来计算页面内容与主题的相关度。
#提取形如 href="http://news.sina.com.cn/o/2018-11-06/doc-ihmutuea7351575.shtml" 的字符串
ulist=re.findall('href="http://[a-z0-9/.\-] \.shtml',content)
i=1
for u in ulist:
u=u[6:]
print(u)
page = requests.get(u, headers=http_headers)
page.encoding = 'utf-8'
content=page.text

bs=BeautifulSoup(content,'lxml')
ps=bs.select('div#article > p')
ptext=''
doc=[]
for p in ps:
p=p.text.strip("\n")
if p!="" :
d=[]

#词汇切分、过滤
for w in list(jieba.cut(p,cut_all=True)):
if len(w)>1 and w not in stoplist:
d.append(w)
doc.append(d)
#print(doc)

下载python主题爬虫爬取与主题词相关的新浪新闻网页用户还喜欢

发表评论必须先登陆，您可以登陆或者注册新账号 !

python主题爬虫爬取与主题词相关的新浪新闻网页

评论

作者专栏

编辑推荐